三维(3D)图像(例如CT,MRI和PET)在医学成像应用中很常见,在临床诊断中很重要。语义歧义是许多医学图像标签的典型特征。这可能是由许多因素引起的,例如成像特性,病理解剖学以及二进制面具的弱表示,这给精确的3D分割带来了挑战。在2D医学图像中,使用软面膜代替图像垫形式产生的二进制掩码来表征病变可以提供丰富的语义信息,更全面地描述病变的结构特征,从而使后续诊断和分析受益。在这项工作中,我们将图像垫子介绍到3D场景中,以描述3D医学图像中的病变。 3D模态中图像垫的研究有限,并且没有与3D矩阵相关的高质量注释数据集,因此减慢了基于数据驱动的深度学习方法的发展。为了解决这个问题,我们构建了第一个3D医疗垫数据集,并通过质量控制和下游实验中的肺结节分类中令人信服地验证了数据集的有效性。然后,我们将四个选定的最新2D图像矩阵算法调整为3D场景,并进一步自定义CT图像的方法。此外,我们提出了第一个端到端的深3D垫网络,并实施了可靠的3D医疗图像垫测试基准,该基准将被发布以鼓励进一步的研究。
translated by 谷歌翻译
培训计算机视觉模型通常需要在各种场景配置和属性集中收集和标记大量图像。这个过程非常耗时,并且要确保捕获的数据分布映射到应用程序方案的目标域,这是一项挑战。最近,综合数据已成为解决这两个问题的一种方式。但是,现有方法要么要求人类专家手动调整每个场景属性,要么使用几乎无法控制的自动方法;这需要渲染大量的随机数据变化,这很慢,对于目标域通常是次优的。我们介绍了第一个完全可区分的合成数据管道,该数据管道使用具有目标应用程序损耗函数的闭环中的神经辐射场(NERF)。我们的方法可以在没有人工的情况下生成数据,以最大程度地提高目标任务的准确性。我们说明了我们方法对合成和现实对象检测任务的有效性。我们还引入了一个新的“ YCB野外”数据集和基准标准,该数据集和基准为对象检测提供了一种在现实世界环境中具有多种姿势的测试方案。
translated by 谷歌翻译
双重编码器结构成功地利用了两个特定语言的编码器(LSE)进行代码转换语音识别。由于LSE由两个预训练的语言特定模型(LSM)初始化,因此双编码器结构可以利用足够的单语言数据并捕获单个语言属性。但是,现有方法对LSE的语言没有限制,并且不足以针对LSM的语言知识。在本文中,我们提出了一种特定语言的特征辅助(LSCA)方法来减轻上述问题。具体来说,在培训期间,我们引入了两种特定语言的损失作为语言限制,并为其生成相应的语言目标。在解码过程中,我们通过组合两个LSM和混合模型的输出概率来考虑LSM的解码能力,以获得最终预测。实验表明,LSCA的训练或解码方法可以改善模型的性能。此外,通过组合LSCA的训练和解码方法,最佳结果可以在代码切换测试集上获得多达15.4%的相对误差。此外,该系统可以通过使用我们的方法来很好地处理代码转换语音识别任务,而无需额外的共享参数,甚至可以基于两个预训练的LSM进行重新训练。
translated by 谷歌翻译
社交媒体由于易于传播新信息而在公共领域迅速发展,这导致了谣言的流通。但是,从如此大量的信息中发现谣言正在成为越来越艰巨的挑战。以前的工作通常从传播信息中获得了宝贵的功能。应该注意的是,大多数方法仅针对传播结构,而忽略了谣言传播模式。这个有限的重点严重限制了传播数据的收集。为了解决这个问题,本研究的作者是促使探索谣言的区域化传播模式。具体而言,提出了一种新颖的区域增强的深图卷积网络(RDGCN),该网络(RDGCN)通过学习区域化的传播模式和火车来增强谣言的传播特征,从而通过无人看管的学习来学习传播模式。此外,源增强的残留图卷积层(SRGCL)旨在改善图形神经网络(GNN)的超平滑度,并增加了基于谣言检测方法的GNN的深度极限。 Twitter15和Twitter16上的实验表明,在谣言检测和早期谣言检测中,提出的模型的性能优于基线方法。
translated by 谷歌翻译
乘车共享公司等双面市场通常涉及一组跨时间和/或位置做出顺序决策的主题。随着智能手机和物联网的快速发展,它们实质上改变了人类的运输格局。在本文中,我们考虑了乘车共享公司的大规模车队管理,这些公司涉及随着时间的推移接收产品(或治疗)序列的不同领域的多个单元。在这些研究中出现了主要的技术挑战,例如政策评估,因为(i)空间和时间附近会导致位置和时间之间的干扰; (ii)大量位置导致维度的诅咒。为了同时解决这两个挑战,我们介绍了在这些研究中进行政策评估的多机构增强学习(MARL)框架。我们提出了新的估计量,即在不同产品下的平均结果,尽管州行动空间具有很高的差异性。提出的估计量在模拟实验中有利。我们进一步说明了我们的方法使用从双面市场公司获得的真实数据集来评估应用不同的补贴策略的效果。我们提出的方法的Python实现可在https://github.com/runzhestat/causalmarl上获得。
translated by 谷歌翻译
跳舞视频retargeting旨在综合传输从源视频到目标人物的舞蹈移动的视频。以前的工作需要收集有几分钟的目标人物,以训练个性化模型的数千帧。但是,训练有素的模型只能生成同一个人的视频。为了解决限制,最近的工作解决了几次跳舞的视频retargeting,这将通过利用其中几帧来综合看不见的人的视频。在实践中,给出了一个人的几个框架,这些工作只是将它们视为一批没有时间相关性的单个图像,从而产生了低视觉质量的时间上不连贯的跳舞视频。在这项工作中,我们将一个人的一些框架模拟了一系列跳舞的移动,其中每个移动包含两个连续帧,以提取这个人的外观模式和时间动态。我们提出了通过跳舞移动的合成优化模型的初始化,从而利用时间感知的元学习,使得元训练模型可以朝着增强的视觉质量和加强不良人员的时间稳定性地调整。很少的框架。广泛的评估显示了我们的方法的大量优势。
translated by 谷歌翻译
卷积和自我关注是表示学习的两个强大的技术,通常被认为是两个与彼此不同的对等方法。在本文中,我们表明它们之间存在强烈的潜在关系,从而在这两个范式的大部分计算实际上以相同的操作完成。具体来说,我们首先表明,具有内核大小k x k的传统卷积可以分解为k ^ 2个单独的1x1卷积,然后是换档和求和操作。然后,我们将自我注意模块中的查询,键和值解释为多个1x1卷积,然后计算注意力权重和值的聚合。因此,两个模块的第一阶段包括类似的操作。更重要的是,第一阶段有助于与第二阶段相比的主导计算复杂性(信道大小的正方形)。这种观察结果自然导致这两个看似独特的范例的优雅集成,即享有自我关注和卷积(ACMIX)的益处的混合模型,同时与纯卷积或自我关注对应相比具有最小的计算开销。广泛的实验表明,我们的模型在图像识别和下游任务上持续改进了竞争基础的结果。代码和预先训练的型号将在https://github.com/panxuran/acmix和https://gitee.com/mindspore/models发布。
translated by 谷歌翻译
风险的准确器官(OAR)分割对于减少治疗后并发症的放射治疗至关重要。达人指南推荐头部和颈部(H&N)区域的一套超过40桨的桨,然而,由于这项任务的可预测的禁止劳动力成本,大多数机构通过划定较小的桨子和忽视的少数,选择了大量简化的协议与其他桨相关的剂量分布。在这项工作中,我们提出了一种使用深度学习的新颖,自动化和高效的分层OAR分段(SOARS)系统,精确地描绘了一套全面的42 H&N OAR。 SOARS将42桨分层进入锚,中级和小型和硬质子类别,通过神经结构搜索(NAS)原则,专门为每个类别提供神经网络架构。我们在内在机构中使用176名培训患者建立了SOAR模型,并在六个不同的机构中独立评估了1327名外部患者。对于每个机构评估,它始终如一地表现出其他最先进的方法至少3-5%的骰子得分(在其他度量的相对误差减少36%)。更重要的是,广泛的多用户研究明显证明,98%的SOARE预测只需要非常轻微或没有直接临床验收的修订(节省90%的辐射脑神经工作负载),并且它们的分割和剂量准确度在于或小于帧 - 用户的变化。这些调查结果证实了H&N癌症放射疗法工作流OAR描绘过程的强烈临床适用性,提高了效率,全面性和质量。
translated by 谷歌翻译
As natural language processing (NLP) for gender bias becomes a significant interdisciplinary topic, the prevalent data-driven techniques such as large-scale language models suffer from data inadequacy and biased corpus, especially for languages with insufficient resources such as Chinese. To this end, we propose a Chinese cOrpus foR Gender bIas Probing and Mitigation CORGI-PM, which contains 32.9k sentences with high-quality labels derived by following an annotation scheme specifically developed for gender bias in the Chinese context. Moreover, we address three challenges for automatic textual gender bias mitigation, which requires the models to detect, classify, and mitigate textual gender bias. We also conduct experiments with state-of-the-art language models to provide baselines. To our best knowledge, CORGI-PM is the first sentence-level Chinese corpus for gender bias probing and mitigation.
translated by 谷歌翻译
We present Second Thought, a new learning paradigm that enables language models (LMs) to re-align with human values. By modeling the chain-of-edits between value-unaligned and value-aligned text, with LM fine-tuning and additional refinement through reinforcement learning, Second Thought not only achieves superior performance in three value alignment benchmark datasets but also shows strong human-value transfer learning ability in few-shot scenarios. The generated editing steps also offer better interpretability and ease for interactive error correction. Extensive human evaluations further confirm its effectiveness.
translated by 谷歌翻译